查看原文
其他

公募也用上AI来炒股了?

沈晖 远川投资评论 2023-09-04


在改变了私募行业的格局后,量化正在渗入公募的产品生态中。


今年二季度,华夏孙蒙、招商王平和西部利得盛丰衍规模突破百亿。除此之外,本已是百亿量化基金经理的国金马芳和万家乔亮,规模也进一步飙升。公募量化圈从小透明逐渐走向台前,吸引人们注意力的方式也从过去「跟踪误差小」的叙事中脱离出来,展现各自在螺蛳壳里做超额的能力。


一名不愿透露姓名的量化基金经理告诉笔者,今年公募量化业绩做的好的人,基本是踩中了两个风口,一个是微盘,另一个就是AI


做微盘很好解释,就是在25亿市值以下的公司里面摊大饼做超额,市值变大了就卖出。相对于这种搓小票的手法,AI量化就没有那么好理解了。


不光是策略本身,甚至连公募量化的路演也像是一个黑箱。一旦有人问到AI策略具体是怎么应用的,基金经理都喜欢用机器学习黑盒来回避问题,每当基金经理语重心长地表示,「AI策略描述起来格外复杂、机器学习不可解释」,尽调就基本问不下去了。


在「合规是天」的背景下,出于不让同行学习的考虑,就连一些失效的因子也不愿意透露,这让一些行业萌新,对调研量化基金经理都倍感无力以至于整个行业乃至基金经理本身,评价一个量化基金经理的水平,只能依据它历史业绩。


当大家的钱蜂拥而入,却又看不太懂时,一个至关重要的问题也就摆在面前。公募量化运用AI,究竟是有效的工具,还是营销的噱头?



01

打开黑箱



人们通常会对自己不懂的事情产生崇拜心理。特别是公募量化这种类型的产品,有基金经理向笔者慷慨分享,路演时聊起AI策略,客户流露出一知半解的表情,那是最好的状态。


事实上,公募AI做的事情也并非不能用白话说明白。西部利得盛丰衍曾告诉笔者,公募运用AI在选股上,主要体现在文本分析、多因子选股高频量价数据挖掘三个方面。


文本分析理解起来最为简单。它通常是指基金经理基于Transformer架构的各类AI模型,对研报、新闻联播等文本数据的上下文进行语义理解,分析不同文本中所蕴含的情感信息,从而辅助决策。


Transformer是近几年最为流行的深度学习模型,在机器翻译等文本任务上的表现超过了传统的RNN、CNN等深度学习模型。今年爆火的ChatGPT,底层也是基于Transformer。


打个比方,去年卖方每天能卷超过200篇报告,光摘要字数就超过27万字。传统量化能够理解标准化的财务数字,但不能理解星巴克的中杯实际是小杯,分析师研报写的中性其实是看空。


在国内要做好投资,对新闻政策的理解是不可避免的一环。一名不愿意透露姓名的量化基金经理这么和笔者形容,「网传能读懂新闻联播深意的至少是副处级的干部,我们的AI模型目前在解读新闻上只能算是一个爱好炒股的小科员,争取明年能有副处的理解能力。


AI的第二个应用场景是多因子选股,传统的量化多因子框架是通过历史牛股的特征,去找到未来潜在牛股的模样,比如那些估值低、业绩好、管理层增持、没有人关注的股票。


作为对比,AI在该场景的应用主要体现在非线性的因子叠加。比如公募基金给模型喂的还是带有经济含义与逻辑的因子,但在模型的选择上会用树结构、神经网络去参与投资。



通俗来说,若把基金经理比作股票,那么好基金经理的标准是非线性的:要业绩拔尖,但不能一个月单押AI涨一倍;要出来交流,但不能天天上直播当网红;要经验丰富,但不能当上副总不研究。AI识别此类非线性因子叠加时有着天然的优势。


如果放开限制,AI能够发掘更多人类可能永远解释不明白的因子。


2017年,彭博著名记者Dani Burger做了一个实验,因为喜欢猫,她等权构建了一个名字带有「猫(CAT)」三个字母的公司组合。结果回测它过去六年,回报率高达850000%。



这样的「猫因子」,在贝莱德因子投资策略主管安德鲁·昂格看来非常荒谬:「我更喜欢狗,我相信一家公司将拉布拉多奉为精神代表肯定能经营得很好。」结果同样跑下来,狗组合跌了99.6%[2]。


在投资范畴上,人本质和AI学习路径是不一样的,人可能是通过经济学原理或者常识去提炼规律;而AI是通过大量数据学习得到一个有用的函数,这个函数可能是错误的,不合常理的,但是在输入、输出结果上有良好的准确率。


正因为AI在分析处理数据上有着人类无法企及的高效,所以它最后一个应用场景是在高频量价数据挖掘


2022年,A股近5000只股票,产生的高频量化数据约为12T,他蕴含了所有A股参与者行为规律特征。2017年以来,由于主观基金经理空前内卷,A股股价在月度层面的有效性达到了新的高度,但高频层面仍处于较低水平。


这就意味着在一定程度上AI可以基于数理统计预测未来。盛丰衍向笔者分享,他正以循环神经网络RNN为基础,对其衍生改造,因为这样的模型非常适合处理量价的时序特征,产生的效果就好比给激光炮上装上了雷达。


毫无疑问,AI呈现的恐怖学习能力已悄然改变着整个行业的格局。中欧基金许文星曾告诉笔者:「有些基金经理非常勤奋,每天听很多专家会议,但有没有想过,大模型每天可以听5000个电话会议,它只要总结出大量的规律,以52%的概率跑赢市场就够了。



02

熵增开启



基金公司向来喜欢带有格调的东西。从南方的AI宣传片,兴全的AI交易员,再到金梓才的数字分身,传言1天可以路演100场。时移世易,基金公司的营销主线已从户外运动走向了赛博未来。



而看起来最接近于前沿科技的公募量化,自然不会错过这个时代Beta。在之前的调研中,博道杨梦对笔者说:「国内整个量化市场在2018年之后逐渐进入AI算法的时代,直到21、22年AI在公募引起广泛的讨论。


像今年最为火热的国金量化多因子姚加红团队、华夏智胜先锋孙蒙、国泰君安胡崇海与万家乔亮等等都明确表示将机器学习运用在了自己的量化投资当中。比如盛丰衍在今年 4月新发的西部利得中证1000中就主要运用AI技术,明显跑赢了同类平均


这些都证明了AI在国内最快落地、且反应到业绩层面的商业化场景,既不是升级版的办公三件套 Microsoft 365 Copilot,也不是以假乱真的在线AI绘画,而是基金公司的量化炒股。


不像主观投资可以诉说各种天花乱坠的故事,有的讲押注颠覆式创新,有的讲盐碱地里种庄稼,还有的宁数月亮,不数星星。量化投资去要说明白似乎格外的艰难,外界描绘分析也只能就某某机构拥有多少万张卡点到为止。


但是AI的出现,却让整个行业的叙事有了新的突破口。


在孙蒙的营销材料里,不会落下2017年华夏与微软亚洲研究院的合作的描述。2018年,华夏微软提出了注意力模型去学习解决行业轮动问题,然后又提出Autoencoder模型刻画市场状态,生成了Machine alpha自动化因子,2019年这些成果被用于实盘。


由于微软是OpenAI的投资方,对比其他公募量化,基民很容易为华夏的AI+做的比较早,血统看起来更为纯正买单。


至于国金量化多因子,是近两年少数在热度上能与金元顺安元启分庭抗礼的产品。不同于「元启」人肉量化挫微盘股,他们是纯粹的量化。


马芳也在一次内部交流中表示她不是纯多因子的玩法,更多的是模型自己预测,追踪市场风格的变化,在框架搭建完成后,自己不会过多人工干预。因为在她看来,「人工的干预不会带来长期稳定的阿尔法。」


笔者在《微盘股太拥挤,太多人有秘密》里面提到国金量化多因子规模扩的太快,去年就持有1534只股票,若持有2000多只就完全赚小盘风格的钱了。不出意外,国金已趁热打铁给马芳发了新基金。


近些年国泰君安量化选股与国金量化多因子有着相似的超额稳定性,在雪球可以看到宣传胡崇海的文章密密麻麻。


他的优势在于交易能力。一名资深基金研究员告诉笔者,国君是公募少数自研交易系统的机构,从原来简单的VIP拆单,到现在自带预测的交易算法。作为国泰君安证券的子公司,它不仅有交底的交易费用、较快的交易速度,还能给予服务器托管的便利,最秘密的是能获取许多AI需要的另类数据和高频数据。


相比上述量化大神们,万家的乔亮更有辨识度,他构建了一个「跟庄指数」


在他的指增模型中会用机器学习将市场分为8种情景风格,然后匹配历史的相应场景做因子配置。最特殊的是万家量化睿选,它的策略是挑选出市场优秀的基金产品重仓股,估算其持仓情况构建组合,形成一个「公募基金重仓股指数增强」


类似「抄作业」的公募产品还不少,比如肖觅的嘉实研究阿尔法、曲径的中欧量化驱动以及杨梦的博道远航,只是此类策略近两年运气不太好,疲弱的公募重仓股带着他们一同下坠。


时至今年,公募量化有了纷繁的特征,有的讲历史底蕴、有的讲爆款平替、有的讲硬件系统,还有的讲产品创新。原本讲不出差异的公募量化,在整个行业的努力下,讲出了新的故事。



03

该降温了



在美国ChatGPT横空出世后,国内有两个行业最为躁动,一个是交易AI的主观公募,另一个上马AI的公募量化。


事实而言,AI确实是一个很好的投资辅助工具,也有量化研究员向笔者确认AI对股票策略有很大的贡献,但是公募乃至整个资管行业应用机器学习算法仍然存在许多难题。


就像特斯拉要实现自动驾驶,需要更多的量产车去采集路面数据。提升AI的投资能力只能去喂足够的历史数据,但国内资本市场的历史数据又比较短,如果单纯使用「近5年信息比率」、「近3年收益率」,会有过拟合的风险。


从某种程度上说,量化对冲基金文艺复兴能够如此成功,一个非常重要的原因是他们有可以回溯到1700年代的准确数据,去感知别人不一定能看得到的图景。


更难的是金融数据的信噪比很低,也不能像语音图像一样可以无限生成样本,这样看可用的样本就更少了。更何况整个金融市场就没有所谓的真相,而大部分适用机器学习算法的场景都假设数据在样本内外有相同的分布规律。


所以要让算法适应不确定环境,短期来看可能靠的不是机器的悟性,更多的是人工的经验。


白鹭资管张晨樱也聊到过运用AI的难度,「当我们运用图神经(GNN)时,首先需要用自然语言处理去提取研报、财报、新闻股票上下游的关系去构建知识图谱。同时GNN又非常复杂,需要很多人工经验对很多超参数进行调整,这就要求使用者在对数据的认知和技术的认知两方面都有足够的储备[1]。」


就算抛开AI策略本身的复杂,无论是人员储备,还是算力算法,公募在做AI这件事上与私募相比都有一定的差距。


从2020年至今,整个基金行业就如A股变幻莫测的题材一样——价值投资、景气投资、低估值、固收+、FOF、ETF、红利,再到现在的公募量化,似乎每年都有1-2个热点。


公募量化仍有他自身的局限,借力AI也存在挑战,更何况收益归因也并非全部来源于AI。人工智能当然是一个火热的标签,是一个新鲜的故事,但基金行业从来不缺营销造势,而是可持续的业绩表现。这一次的AI量化,真的能带来不同的生命力吗?




参考资料

[1] 白鹭资管张晨樱:AI技术在量化投资领域的应用及发展方向.白鹭资管

[2]Dani Burger Travels back in time, Makes 850000% On Cats,Quants Furious.Bloomberg

编辑:张婕妤

视觉设计:疏睿
制图:沈晖
责任编辑:张婕妤


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存